NLP

reference resolution in dialogues

本文主要介绍了多轮对话系统中的指代问题,整理了一些相关文章,包括数据集和方法。

A dataset for resolving referring expressions in spoken dialogue via contextual query rewrites (CQR)

Introduction

在多轮对话系统中,用户在交互的一个轮次里可能给与不完整信息,而剩下的槽值需要根据上下文指代关系来提取,例如:

这种指代关系可以分为显式指代(explicit reference)和隐式指代(implicit reference or zero anaphora),其中显式指代又分为:

  • 名词回指:nominal anaphoric reference (“that coffee shop”)

  • 位置词:locative form (“there”)

  • 代词:pronominal form(e.g., “it”)

本文的核心贡献是引入了 CQR(contextual query rewrites) 任务来解决对话中的指代问题,避免slot value的carryover,进而促进对话建模;收集了一个CQR数据集:https://github.com/alexa/alexa-dataset-contextual-query-rewrite
enter image description here

CQR任务定义:

  • 输入:前D轮对话 ,当前轮用户输入 ,以及与之相关的槽值集合。

  • 输出:改写后的当前轮用户输入 。

CQR任务的难点在于改写过程需要隐式地选择与当前轮相关的槽值。

Dataset && Experiment

因为本文的重点是CQR对于对话建模的促进作用,所以论文没有提出任何CQR模型,只是利用人工标注的CQR数据集验证了对下游任务的促进作用。

数据集统计: 领域以及对应的槽 Weather (location, date, weather attribute); Navigation (point of interest type, point of interest, address, traffic information, distance); and Calendar scheduling (date, time, location, party, agenda)

在SLU任务上的实验结果:(Original和Gold CQR分别代表同样的SLU模型运行在原始的数据集和改写后的数据集,相当于多轮对话转化为单轮)

Scaling Multi-Domain Dialogue State Tracking via Query Reformulation

  1. 本文是上篇论文的续作(均出自Amazon Alexa),主要引入了pointer-generator模型来解决CQR任务。

  2. 模型结构:

  3. 实验结果:

Improving Multi-turn Dialogue Modelling with Utterance ReWriter

  1. 为了解决多轮对话中的共指关系和信息缺失的问题,本文的思路是训练一个言语重写器将多轮对话转换成单轮对话,其目的就和下图所示,将Utterance3改成Utterrance3`。由于把信息补全了,所以此时的多轮就相当于单轮对话了,将其输入到对话系统中,就可以按照单轮对话来处理了。

  2. 为了训练语言重写器,文章创建了包含2万个多轮对话数据集,并且每句话都是成对的存在的。 数据集统计:

  3. 提出了一种高效的基于转换的话语改写器,其性能优于其它几个比较强的基线版本。模型结构:
  4. 实验结果:

    利用重写后的数据集进行下游任务: